
'''测试：学习使用jieba分词工具进行分词'''
import jieba
import jieba.analyse
jieba.load_userdict("dict.txt")

text = '北京故宫是中国明清两代的皇家宫殿，旧称为紫禁城，位于北京中轴线的中心，是中国古代宫廷建筑之精华。北京故宫以三大殿为中心，占地面积72万平方米，建筑面积约15万平方米，有大小宫殿七十多座，房屋九千余间。'

seg_list0 = jieba.cut(text,cut_all=True)  # 全查找 默认模式
seg_list1 = jieba.cut(text,cut_all=False)  # 精确查找
seg_list2 = jieba.cut_for_search(text)  # 搜索引擎查找
# print('/'.join(seg_list0))
# print('/'.join(seg_list1))
print('/'.join(seg_list2))

# 获取关键词
tags = jieba.analyse.extract_tags(text, topK=3)  # topB 关键字个数
print("关键词:", ' '.join(tags))




